長い時系列を生成するための注意機構 Generating Long Sequences with Sparse Transformers

TL;DR

Transformerの注意機構を時系列向けにスパースにすることによって、

計算効率が高く・長い時系列向けのTransformerを開発することができた。

Information

Important Feature 1

https://gyazo.com/47db74ec2340524e1a1136bfb98cb86a

(a) 通常のTransformerが全部のそれ以前のピクセルに対して注目するのに対して

(b)strided Transformerは、簡単に言うと列情報と行情報にのみ着目する

(c)fixed Transformerは直近数ピクセルとその前のカラムについて着目する

Important Feature 2

画像生成系のタスクでベンチマークに勝っている。

https://gyazo.com/d949b00ddad2e219f0da05166fbc3f23

実際に下半分を隠して生成された画像

https://gyazo.com/0a5785a440aebdd0b8b13c5502f77a50

生成された音楽